VLM RLVR 流水线
✨️概述
该 VLM RLVR 流水线与 LLM 流水线具有相同的优势,而在该流水线中内置支持了视觉推理和视觉感知任务,目前包括数学(推理)和检测(感知),每个任务都配备专门的奖励评估机制,使得能够同时优化模型在多个领域(如数学和检测)的能力。
✨️核心组件
主模块 (RLVRVLMPipeline)
RLVRVLMPipeline (位于roll/pipeline/rlvr/rlvr_vlm_pipeline.py) 是整个强化学习过程的主要协调器。它管理完整的训练工作流,包括:
- 初始化和管理分布式工作器(actor、critic、reference和各种奖励工作器)。
- 协调数据收集和处理。
- 执行模型训练步骤(例如,actor和critic的PPO更新)。
- 处理模型同步和检查点保存。
- 验证集评估。
- 记录指标和实验跟踪。
源代码:roll/pipeline/rlvr/rlvr_vlm_pipeline.py, 其中直接支持了 Qwen2.5-VL 模型
配置文件 (RLVRConfig)
VLM RLVR 流水线和 LLM 共享相同的配置文件(RLVRConfig),有关配置详情请参考LLM RLVR Pipeline文档。VLM RLVR 流水线配置示例可在 examples/qwen2.5-vl-7B-rlvr/rlvr_megatron.yaml 中找到,和 LLM RLVR 流水线配置最大差异在于奖励设置,其中包含了视觉特有的奖励并将在后面介绍。
奖励设置
rewards